
Architecture d'interconnexion modulaire pour machine multiprocesseur £^ 



extensible, mettant en oeuvre une hterarchie de bus virtuelle k plusieurs ^ 
niveaux et la meme brique de base pour tous les niveaux. 

5 La presente invention se rapporte au domaine des machines multiprocesseurs 
a architecture symetrique comportant des memoires a temps d'acces uniforme 
et a coherence d'antememoire, plus connues sous la terminologie anglo- 
saxonne "CC-UMA SMP" (Cache-Coherent - Uniform Memory Acces Symetrical 
Multi-Processor). 

10 Elle concerne plus particulierement une architecture d'interconnexion entre un 
grand nombre de processeurs organises en grappes de modules 
multiprocesseurs, appeles egalement nceuds d'un systeme informatique. 
Dans de telles machines, un ou plusieurs niveaux d'antememoire de chaque 
processeur stocke des donnees recemment acquises et qui peuvent etre 

15 reutilisees rapidement evitant ainsi des contentions pour des acces memoire 
ulterieurs. 

Quand un processeur ne trouve pas les donnees souhaitees dans son 
antememoire, il emet Tadresse de la zone memoire dont il souhaite lire les 
donnees via le bus systeme. 
20 Tous les processeurs verifient dans leur antememoire si a cette adresse ils ont 
une copie des donnees la plus recemment mise a jour. 

Si un autre processeur a modifie les donnees, il indique au processeur 
emetteur qu'il peut recuperer les donnees contenues dans son antememoire 
plutot que de les demander a la memoire physique. 
25 Pour qu f un processeur puisse modifier une zone memoire, il doit obtenir 
Tautorisation de le faire. 

Apres une telle modification, tous les autres processeurs qui ont une copie des 
donnees qui viennent d'etre modifiees, doivent invalider cette copie dans leurs 
antememoires respectives. 



Un suivi des transactions transitant sur le bus systeme et un protocole gerant 
la coherence d'antememoire, conserveront les traces de toutes les transactions 
echangees entre les processeurs. 

On distingue de maniere classique quatre etats fondamentaux du protocole de 
coherence des memoires, normalise sous le code courant MESI, abreviations 
anglo-saxonnes pour "Modified state, Exclusive state, Share state, Invalide 
state". 

D'une maniere generale, la gestion des echanges entre les memoires d'un 
systeme informatique consiste a mettre a jour ou a invalider des copies d'un 
bloc de memoire. 

Si ('invalidation est choisie, il est par exemple connu d'ajouter a I'adresse de 
chaque bloc deux bits representatifs de I'etat du bloc dans la memoire. 
Selon ce protocole et dans chaque nceud, I'etat "M" correspond au cas ou une 
antememoire determinee est la seule detentrice d'une copie modifiee d'un bloc, 
dite copie de reference, et ou il n'existe pas d'autres copies valides dans le 
systeme. Dans ce cas, I'antememoire detentrice de la copie ayant I'etat "M" est 
responsable de fournir et de mettre a jour la memoire centrale si elle veut se 
debarrasser de cette copie. Une copie ayant I'etat exclusif "E" est aussi la 
copie de reference detenue par une antememoire, mais dans ce cas, la 
memoire centrale en a une copie a jour. L'etat partage "S" se rapporte a une 
copie ayant eventuellement plusieurs detenteurs, mais dont une copie est a 
jour dans la memoire centrale. Les detenteurs peuvent etre potentiels selon la 
strategie de gestion adoptee. Enfin, on trouve I'etat de copie invalide "i" quand 
I'antememoire a une copie du bloc qui n'est pas valide. Lorsqu'un processeur 
veut acceder a un bloc a I'etat "i", son antememoire envoie une requete sur le 
bus systeme pour acquerir le bloc. Les autres antememoires et la memoire 
centrale couplees au bus systeme prennent connaissance de cette requete et 
reagissent en fonction de I'etat de la copie que la memoire correspondante 
possede. Ainsi, si une antememoire possede le bloc dans I'etat modifie "M", 
elle fournira le bloc au bus systeme, permettant ainsi au processeur 



demandeur d'acceder aux donnees et a son antememoire d'acquerir la copie 

de reference. II existe encore d'autres etats optionnels normalises ou non. 

Une telle gestion est particulierement adaptee quand plusieurs processeurs 

modifient frequemment les donnees emises via le bus systeme. 

Comme les zones memoires sont toutes accessibles de la meme facon par 

tous les processeurs, il n'y a plus de probleme d'optimisation de la place des 

donnees dans une zone memoire determinee. 

C'est ce qui caracterise I'acces memoire uniforme UMA. 

Ce type de gestion est fiable tant que le bus systeme n'est pas sature par un 

trap grand nombre de processeurs emettant un grand nombre de requetes 

d'acces memoire en meme temps. 

Avec I'accroissement du niveau ^integration des composants, on peut ranger 
de plus en plus de processeurs sur une meme carte et la vitesse des 
processeurs s'accroit de 55 % par an. 

Un article de Alan Charlesworth (Sun Microsystems) publie dans IEEE Micro de 
janvier/fevrier 1998, pages 39-49, decrit une architecture d' interconnexion 
entre plusieurs nceuds, adaptee a de telles contraintes. 

Cette architecture d'interconnexion utilise un protocole de commutation par 
paquets permettant de separer les requetes et les reponses et laissant se 
chevaucher sur le bus des transactions entre plusieurs processeurs. 
D'autre part, elle utilise un entrelacement de plusieurs bus de contr6le. Ainsi, 
■'utilisation de quatre bus d'adresses permet de controler quatre adresses en 
parallele. L'espace en memoire physique est divise par quatre et chaque bus 
d'adresses verifie un quart de la memoire. 

Avec une telle architecture, on peut connecter entre 24 a 64 processeurs 
utilisant 4 bus d'adresses et un autocommutateur, connu egalement sous la 
terminologie anglo-saxonne "crossbar", entre chaque noeud ; chaque nceud 
comportant au minimum quatre processeurs. 

L'interconnexion des modules utilise le protocole de coherence de memoire 
i defini precedemment et permet de faire des transactions entre modules entre 
deux niveaux d'interconnexion : 



- un premier niveau ^interconnexion, au niveau du noeud, convoyant le trafic 
interne du noeud, emanant des processeurs et des memoires, vers les 
adresses de sortie du noeud et des ports de donnees ; et 

- un deuxieme niveau ^interconnexion, de niveau superieur, transferant les 
5 adresses et les donnees entre les differents noeuds du systeme. 

Les requetes d'acces memoire (commandes et adresses) sont diffusees vers 
I'ensemble des noeuds pour consultation de leurs repertoires afin de localiser 
la donnee a laquelle un processeur du systeme veut acceder. 
Le temps d'acces memoire est independant du noeud ou la memoire physique 
10 est localisee. 

On distingue en outre deux types ^interconnexion suivant le type d' information 
traitee : une interconnexion dans I'espace d'adressage et une interconnexion 
dans I'espace des donnees. 

Un des inconvenients d'une telle architecture reside notamment dans 
15 ('utilisation d'un "crossbar" comportant un nombre important de points de 
connexions et done encombrant, centralise sur le fond de panier, sur lequel les 
noeuds constituant la machine sont connectes. 

Cette architecture necessite d'autre part un fond de panier "actif , e'est-a-dire 
comportant des composants logiques, par opposition a un fond de panier 
20 "passif sans composant logique. 

Dans ce type de machines, on est oblige de dupliquer le "crossbar" pour arriver 
a une bonne disponibilite et en cas de panne, on perd une partie de la bande 
passante utile. 

Une telle machine n'est done pas propice a I'adaptation de nouveaux modules 
25 multiprocesseurs pour differentes configurations de machines et s'oppose ainsi 
a la modularite recherchee. 

L'invention a notamment pour but de pallier ces inconvenients. 
Un but de la presente invention est de proposer une architecture 
^interconnexion modulaire permettant d'absorber les trafics de tous les 
30 modules multiprocesseurs avec une capacite variable en nombre de 
processeurs. 



A cet effet, I'invention a pour premier objet une architecture d'interconnexion 
modulaire pour machine multiprocesseur extensible, basee sur une hierarchie 
de bus virtuelle, comportant un nombre determine de modules 
multiprocesseurs organises en nceuds et repartis sur au moins deux niveaux 
^interconnexion : un premier niveau correspondant a ('interconnexion des 
modules multiprocesseurs a I'interieur d'un noeud et un deuxieme niveau 
correspondant a V interconnexion des nceuds entre eux ; le premier niveau 
d' interconnexion comportant des agents de connexion connectant les modules 
multiprocesseurs entre eux et gerant les transactions entre les modules 
multiprocesseurs, le deuxieme niveau ^interconnexion comportant des nceuds 
de connexion externes connectant les nceuds entre eux et gerant les 
transactions entre les nceuds. 

^architecture d'interconnexion selon I'invention est caracterisee en ce que les 
agents de connexion et les noeuds de connexion externes ont respectivement 
la meme structure de base, la meme interface externe et mettent en ceuvre le 
meme protocole de gestion de coherence des antememoires des processeurs. 
L'invention a pour deuxieme objet un precede de suivi des blocs de donnees a 
I'interieur d'une architecture d'interconnexion definie ci-dessus, caracterise en 
ce qu'il consiste, dans le premier niveau, a ne dupliquer dans les memoires 
associatives que les blocs de donnees modifies dans les antememoires des 
modules multiprocesseurs et a ne suivre que ces blocs modifies a I'interieur du 
noeud. 

Le procede consiste, dans le deuxieme niveau a ne dupliquer dans les 
memoires associatives des agents de connexion de chaque noeud de 
connexion externe que les bloc modifies et exportes, reciproquement importes, 
et a ne suivre que ces blocs modifies exportes, reciproquement importes, entre 
chaque noeud de la machine. 

L'invention a pour troisieme objet un procede d'extension de la capacite d'une 
machine comportant un premier nombre determine de processeurs de premier 
niveau organise en un premier nombre determine de modules multiprocesseurs 
et aptes a s'inserer dans une architecture d'interconnexion telle que definie ci- 



dessus, caracterise en ce qu'il consiste, a retirer un des modules 
multiprocesseurs de premier niveau de son agent de connexion et a connecter 
via cet agent de connexion laisse libre, un deuxieme nombre determine de 
processeurs organises en un deuxieme nombre determine de modules 
5 multiprocesseurs egalement aptes a s'inserer dans une architecture 
d' interconnexion telle que definie ci-dessus. 

Enfin, I'invention a pour quatrieme objet une machine multiprocesseur 
multinodale extensible, caracterisee en ce qu'elle comporte une architecture 
d 1 interconnexion telle que definie ci-dessus. 
10 L'invention a notamment pour avantage d'etre modulaire et extensible a 
volonte. 

En effet, elle permet en utilisant toujours la meme brique de base, typiquement 
un module quadri-processeur associe a son agent de connexion NCS, ou 
"Network ChipSet" en terminologie anglo-saxonne, d'adapter le nombre de 

15 processeurs necessaire pour couvrir une gamme tres large de machines telles 
que des machines UMA, quasi UMA, NUMA (Non UMA), Cluster (terme utiliser 
pour designer un ensemble de machines connectees au moyen d'un SAN ( 
System Area Network : reseau au niveau systeme),... et de supporter differents 
systemes d'exploitation (NT, UNIX ...). 

20 NT et UNIX sont des marques deposees et appartiennent respectivement a 
Microsoft et X/Open. 

La structure de la brique de base precedemment definie est generalement 
supportee par la meme puce de silicium. 

La presente invention s'affranchit d'autre part d'un "crossbar" actif, en fond de 
25 panier (fond de panier actif). 

D'autres avantages et caracteristiques de la presente invention apparaTtront a 
la lecture de la description qui suit faite en reference aux figures annexees qui 
represented : 

- la figure 1, un exemple d'architecture ^interconnexion selon I'invention 
30 suivant un premier niveau d' interconnexion Ml ; 



- la figure 2, le schema fonctionnel d'un agent de connexion NCS selon 
I'invention ; 

- la figure 3, un exemple d'architecture d' interconnexion selon I'invention 
suivant un deuxieme niveau d' interconnexion SI ; 

- la figure 4, ('architecture ^interconnexion des figures 1 et 3, developpee 
suivant les deux niveaux d' interconnexion Ml et SI ; 

- la figure 5, le schema fonctionnel d'un noeud Nj de connexion externe NCE 
connectant le reseau de premier niveau Ml au reseau de deuxieme niveau SI, 
selon I'invention ; 

- la figure 6, une architecture d' interconnexion de premier niveau Ml a cinq 
nceuds Nj dans laquelle un des nceuds Nj est utilise pour connecter le reseau 
de deuxieme niveau SI ; 

- la figure 7, le schema bloc de I'espace de commande et d'adressage de 
I'agent de connexion NCS de la figure 2 ; 

- la figure 8, une architecture d' interconnexion selon I'invention dans laquelle 
le deuxieme niveau d' interconnexion SI est reduite a un lien. 

La figure 1 illustre schematiquement une architecture ^interconnexion pour 
une machine quasi UMA, localisee typiquement sur le fond de panier d'une 
armoire informatique. 

Dans cet exemple, cinq modules multiprocesseurs QPi, avec i = 0 a 4, sont 
interconnects au moyen d'un module ^interconnexion Ml. 
Chaque module multiprocesseur QPi comporte quatre processeurs et leurs 
antememoires respectives, non represents, et ferment un module quadri- 
processeur. 

Les modules quadri-processeurs QPi sont connects au module 
d' interconnexion Ml respectivement au moyen d'agents de connexion reseau 
NCSi. 

On definit par Xli (external Interface) les interfaces externes entre les modules 
quadri-processeurs QPi et leurs agents de connexion respectifs NCSi. Elles 
sont symbolisees respectivement par un segment de droite en trait interrompu. 
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On considerera que I'ensemble forme par le module quadri-processeur QPi, 
son agent de connexion NCSi et son interface externe Xli, constitue une 
"brique de base" de premier niveau de I'architecture ^interconnexion selon 
I'invention. 

5 Le module ^interconnexion Ml dans I'exemple illustre comporte cinq briques de 
base de premier niveau QBi, delimitees respectivement par une ligne fermee 
discontinue. 

Chaque brique de base QBi est reliee aux quatre autres via respectivement 
quatre liaisons point-a-point, non referencees pour ne pas surcharger la figure. 

10 Ces liaisons sont considerees au niveau protocolaire comme autant de bus 
virtuels. II y a ainsi, dans I'exemple decrit, quatre bus virtuels et done quatre 
niveaux d'entrelacement traites par chaque agent de connexion NCSi. Chaque 
bus permet ainsi quatre acces, ou transactions, a chaque cycle d'horloge. 
Le.protocole selon I'invention permet de gerer les transactions emises sur le 

15 module d' interconnexion Ml tous les quatre cycles d'horloge. 
II est base sur le principe suivant : 

Quand un processeur emet une requete sur son bus, par exemple : lire 
I'adresse de I'antememoire contenant le bloc de donnees "a", les seules 
briques QBi susceptibles d'etre elues sont celles ou il y a une antememoire 
20 correspondant a cette adresse. 

Selon I'invention, on ne veut permettre la transaction que vers la brique QBi 
comportant effectivement le bloc "a" dans une de ses antememoires et ne 
consulter que les briques QBi ayant cette adresse sans perturber les autres. 
Pour cela chaque agent de connexion NCSi de I'architecture selon I'invention, 

25 illustre schematiquement a la figure 2, comporte une memoire associative ou 
quasi associative DDi, egalement connue sous la terminologie anglo-saxonne 
de "duplicate directory", delimitee par une ligne fermee discontinue. 
Chaque memoire associative DDi contient une copie du contenu des 
antememoires des processeurs d'une brique de base QBi a laquelle elle est 

30 dediee. 
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Le contenu des antememoires est organise selon quatre niveaux 
d'entrelacement ddO a dd3 correspondant respectivement aux quatre 
processeurs de la brique de base QBi. 

Chaque memoire DDi contient ainsi I'ensemble des repertoires, ou "directories" 
5 en terminologie anglo-saxonne, des quatre processeurs des modules QBi, 
accessibles par une adresse. 

Les memoires associatives DDi sont de taille fixe determinee en fonction du 
nombre de processeurs de la brique de base QBi et I'etat des memoires DDi 
est indicatif de la presence des derniers blocs de donnees modifies dans les 

10 antememoires de la brique de base QBi. 

Chaque memoire associative DDi joue ainsi le role d'un filtre vis-a-vis de la 
brique de base QBi a laquelle elle est dediee en ce sens qu'une transaction 
n'est effectuee uniquement quand une memoire associative DDi comporte la 
derniere copie modifiee du bloc "a". 

15 Les lignes en pointilles materialised le trajet, ou "snooping" en terminologie 
anglo-saxonne, suivi par le protocole pour consulter I'etat des memoires 
associatives DDi avant de debuter une transaction. 

L'agent de connexion NCSi comporte, a droite de la figure, I'interface externe 
XI pour se connecter a un module quadri-processeur QPi. 
20 II est couple, a gauche de la figure, via les quatre liaisons entrantes et 
sortantes de la figure 1, aux quatre autres briques QBi du module 
d'interconnexion Ml. 

Le protocole selon I'invention est base sur le principe selon lequel seuls des 
blocs modifies sont dupliques dans les memoires associatives DDi des agents 
25 de connexion NCSi. 

On peut ainsi avec une architecture sur un niveau, conforme a celle de la 
figure 1, et des agents de connexion NCS conformes a la figure 2, 
interconnecter et traiter le flux de transactions echange typiquement entre 4 a 
20 processeurs. 

30 On considerera dans la suite de la description que cette architecture defmit un 
premier niveau Ml d'une architecture modulaire selon I'invention. 
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La figure 3 illustre suivant un schema similaire a celui de la figure 1, un 
deuxieme niveau de I'architecture modulaire definie ci-dessus qui integre le 
premier niveau Ml pouvant etre considere comme une brique de base pour le 
deuxieme niveau SI. 

Selon ce mode de realisation, cinq briques de base HBj, avec j=0 a 4, de 
deuxieme niveau sont connectees au systeme ^interconnexion SI via leurs 
agents de connexion respectifs NCS"j et leurs interfaces respectives Xl"j. Le 
systeme ^interconnexion SI se comporte vis-a-vis des briques HBj du 
deuxieme niveau comme le module ^interconnexion Ml vis-a-vis des briques 
QBi du premier niveau. 

La figure 4 illustre schematiquement une architecture similaire a celle illustree 
a la figure 3 developpee sur les deux niveaux Ml et SI. Elle permet 
d'interconnecter typiquement jusqu'a 80 processeurs pour des briques de base 
de deuxieme niveau HBj comportant respectivement 16 processeurs. Chaque 
brique de base de deuxieme niveau HBj comporte respectivement quatre 
briques de base de premier niveau QBi comportant eux-memes respectivement 
4 processeurs. 

L'extension de la capacite d'une machine consiste a augmenter le nombre de 
ses processeurs. 

Le procede d'extension selon I'invention, consiste dans une premiere etape, a 
retirer un des cinq modules quadri-processeurs QPi de premier niveau, le 
module QP3 dans I'exemple considere, de son agent de connexion NCS3 et, 
dans une deuxieme etape, a connecter I'architecture de deuxieme niveau SI, 
en utilisant I'agent de connexion laisse libre, NCS3 dans I'exemple illustre a la 
figure 1, que I'on rebaptisera NCS'j, avecj=0 dans I'exemple considere. 
Le systeme d' interconnexion SI est connecte au module ^interconnexion Ml via 
un agent de connexion NCS"0 dispose tete-beche par rapport a I'agent NCS'O ; 
I'interface externe XI'O se situant physiquement entre le premier et le deuxieme 
agent de connexion NCS'O et NCS"0. 
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Les deux agents de connexion NCS'j et NCS"j, montes tete-beche, illustres 
schematiquement a la figure 5, sont alors vus par le systeme ^interconnexion 
SI comme un seul agent de connexion NCS"j comme represents a la figure 3. 
Les deux agents de connexion NCS'j et NCS"j, montes tete-beche, et leur 
5 interface Xl'j definissent un nceud de connexion externe NCEj par lequel 
transitent les transactions entre les differents processeurs du premier niveau 
Ml et ceux du deuxieme niveau SI suivant le protocole selon I'invention. 
Le protocole selon I'invention permet de gerer la coherence des differentes 
antememoires reparties sur les deux niveaux d'interconnexion Ml et SI en 
10 consultant les memoires associatives respectives des agents NCS'j et NCS"j. 
line des particularites du protocole selon I'invention est sa capacite de suivi 
aussi bien pour une brique de base QBi du premier niveau Ml que pour 
I'ensemble des briques de base QBi et HBj des deux niveaux Ml et SI. 
Pour pouvoir absorber le trafic entre les deux niveaux Ml et SI tout en 
15 conservant une meme bande passante Xli et Xl"j et une brique de base 
identique pour les deux niveaux Ml et SI, c'est-a-dire des memoires 
associatives DDi, DD'j et DD"j de meme dimension quelque soit le nombre de 
niveaux, la latence du deuxieme niveau SI est choisie superieure a celle du 
premier niveau Ml. Elle est typiquement egale a un cycle d'horloge pour le 
20 premier niveau Ml et egale a deux cycles d'horloge pour le deuxieme niveau SI. 
II est ainsi possible de realiser a partir d'une architecture d'interconnexion 
modulaire selon I'invention et conforme aux exemples illustres aux figures 1 a 
5, au moins deux types de machines : une premiere machine de 4 a 20 
processeurs et une deuxieme machine a plus de 60 processeurs. 
25 On definit deux modes distincts de parametrage d'un nceud de connexion 
externe NCEj en fonction du niveau de I'architecture d'interconnexion ou se 
situe I'information recherchee : le mode Ml et le mode SI. 
Selon le principe de suivi etabli dans le mode Ml, seuls les blocs modifies sont 
dupliques. Dans le mode SI, le suivi n'est effectue que sur les blocs modifies et 
30 exportes. L'exportation de blocs modifies s'entend du sens allant du premier 
niveau Ml vers le deuxieme niveau SI, soit du niveau inferieur vers le niveau 
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superieur. Symetriquement, r importation de blocs modifies s'entend du sens 
allant du deuxieme niveau SI vers le premier niveau Ml, soit du niveau 
superieur au niveau inferieur. 

Quand un processeur d'un premier noeud NO demande a lire en exclusivite 
(lecture et invalidation/read invalidate "a") un bloc "a" situe dans un autre 
nceud Nj. la requete est alors diffusee a I'ensemble des noeuds Nj via les 
quatre bus virtuels du systeme ^interconnexion SI. 

Cette diffusion peut etre assimilee au mode de diffusion connu sous la 
terminologie anglo-saxonne "broadcast" s'appliquant a un multibus ; les dix 
liaisons point-a-point du systeme ^interconnexion SI se comportant comme 
quatre bus virtuels au sens protocolaire. 

Le nceud de connexion externe NCEj se comporte alors comme un agent 
externe quand il est parametre en mode externe. 

Dans_ cette configuration (multinodale), I'acquittement d'une commande 
^invalidation est I'agregat, dans I'agent externe du module requerant, des 
acquittements partiels emis par les agents externes des autres nceuds Nj. 
L' agent NCS M a la meme fonction, pour le deuxieme niveau (16 processeurs), 
que Tagent NCS pour le premier niveau (4 processeurs). 
Les principales differences de traitement entre Tagent NCSi et Tagent NCS M j 
sont repertories synthetiquement dans le tableau suivant en ce qui concerne 
les aspects de latence des liaisons, de memoire associative, de commande 
^invalidation et de lecture et d'invalidation : 





NCSi (Ml) 


NCS"j (SI) 


latence des liaisons 


1 cycle d'horloge 
(fond de panier) 


2 cycles d'horloge 
(cables) 


memoire associative 


duplication des 4 
antememoires des 
processeurs 


duplication partielle des 16 
antememoires des 
processeurs du noeud (ce 
sont uniquement les blocs 
importes et modifies qui 
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sont suivis avec precision 


invalidation 


propagation filtree vers les 
antememoires des 4 
processeurs du module 


propagation vers les NCSi 
des 4 briques du module 
(acquittement explicite au 
moyen d'une reponse sur 
le reseau du module Ml) 


lecture et invalidation 


la fourniture des donnees 
est conditionnee par 
1'acquittement de 
('invalidation 


son acquittement attend 
racquittement des noeuds 
du systeme ; pas de 
blocage des donnees 



De la meme facon, le tableau ci-dessous repertorie synthetiquement les 
differences de traitement entre un agent NCSi et un agent NCS'j en ce qui 
concerne les aspects de memoire associative, de commande d'invalidation et 
de commande de lecture et invalidation. 

L'agent NCS'j est dispose a la meme place qu'un agent NCSi et traite des 
trafics emanant de 64 processeurs au lieu des 4 processeurs traites par l'agent 
NCSi. 

L'architecture consideree pour ce tableau est illustree a la figure 6. 





NCSi 


NCS'j 


memoire associative 


duplication des 4 
antememoires des 
processeurs 


duplication partielles des 64 
antememoires (ce sont 
uniquement les blocs 
importes et modifies qui 
sont suivis avec precision 


invalidation 


propagation filtree vers les 
antememoires des 4 
processeurs du nceud 


propagation vers les 64 
processeurs du deuxieme 
niveau (avertissement 
explicite) 
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lecture et invalidation 


la fourniture des donnees 


son acquittement attend 




est conditionnee par 


racquittement des nceuds 




racquittement de 


du systeme ; pas de 




revalidation 


blocage des donnees 



Les interfaces externes Xli et Xl'j ont des bandes passantes similaires. 
Quand un bloc demande est identifie dans une des memoires associatives DDi 
des briques de base QBi, le bloc demande est "exporte" de rantememoire 
5 contenant la derniere copie du bloc, mise a jour, vers le processeur 
demandeur. La nouvelle copie valide se trouve alors dans rantememoire du 
processeur demandeur. 

C'est le protocole de gestion de coherence selon I'invention qui recherche dans 
un premier temps dans quelle memoire associative DDi se trouve le bloc 

10 modifie puis dans un deuxieme temps qui recherche quelle memoire 
associative DD'j et DD"j du noeud de connexion externe NCEj contient 
reformation : bloc "a" modifie et exporte. La brique de base QBi contenant le 
processeur demandeur est egalement identifiee au sein du noeud Nj. 
Le principe est symetrique pour les blocs importes. Par ce principe de suivi 

15 base sur la consultation des memoires associatives des agents de connexion 
NCSi et des nceuds de connexion externes NCEj, la bande passante peut 
rester constante pour les deux niveaux et absorber des trafics disparates entre 
les differentes briques de base de premier et de deuxieme niveau QBi et HBj. 
Le protocole de gestion de coherence memoire selon I'invention est ainsi 

20 capable de permettre a ('architecture d'absorber un trafic de transactions dans 
le pire cas ou quatre des cinq briques de deuxieme niveau HBj rechercheraient 
simultanement un bloc dans la cinquieme brique. 

La figure 7 illustre le schema bloc d'un agent de connexion NCSi selon 
I'invention considere dans I'espace de commande et d'adressage. 
25 La description de ce schema permettra de mieux comprendre le protocole de 
gestion de coherence mis en oeuvre par I'agent de connexion NCSi selon 
I'invention. 
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Toutes les principales fonctions mises en ceuvre dans les premier et deuxieme 
niveaux Ml et SI sont representees. 

Afin de simplifier la figure, seuls les blocs se rapportant au premier niveau 
(i = 0) des quatre niveaux d'entrelacement sont representes. 

5 Un premier bloc RL realise un classement logique des requetes externes 
recues a I'entree de I'agent (a gauche suivant la figure). Les requetes sont 
ordonnees de la meme facon quelque soit la brique de base emettrice. Pour 
chacune des entrees, le bloc RL a la capacite de prendre en compte plusieurs 
requetes recues simultanement pour eviter la perte de requetes en cas d'arret 

10 inopine du flux de requetes. 

Des filtres logiques RFi, recoivent respectivement les requetes, dans I'ordre 
impose par le bloc RL. lis filtrent respectivement toutes les requetes attributes 
au meme niveau d'entrelacement i et au meme identifiant systeme de la brique 
de base. 

15 Des blocs d'arbitrage ARBi sont couple respectivement en sortie des filtre RFi. 
lis selectionnent une requete suivant un algorithme determine par exemple un 
algorithme equitable du type circulaire, "Round Robin Algorithm" en 
terminologie anglo-saxonne, dans lequel la derniere requete elue devient la 
moins prioritaire. 

20 Des memoires associatives DDi sont respectivement couplees en sortie des 
blocs d'arbitrage ARBi. Chaque memoire associative DDi contient une copie 
ddij du contenu de I'antememoire de chaque processeur d'une brique de base. 
En mode SI, les memoire associatives DD"j et DD"j contiennent respectivement 
soit une copie des blocs modifies exportes soit une copie des blocs modifies 

25 importes suivant le sens de la transaction entre les deux niveaux Ml et SI. 

Pour forcer une entree, c'est-a-dire imposer une nouvelle donnee sur une 
entree, une commande d'invalidation ou de lecture et invalidation est 
necessaire pour pouvoir reutiliser une antememoire deja validee dans la 
memoire associative DDi. 
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Pour cela, des extensions DDEAMi aux memoires associatives DDi sont 
couplees sur leurs sorties et sont destinees a retarder les transactions 
destinees a transiter sur le bus en attendant que le bus soit libre (idle). 
Toutes les requetes sont serialisees en sortie des blocs d'arbitrage ARBi et 
5 sont ensuite stockees dans une memoire tampon SERB dans laquelle elles 
sont agencees suivant leur statut (internal/external, home/remote, hit/miss, 
shared/exclusive/modified), dans quatre files d'attente Fi correspondant 
respectivement aux quatre niveaux d'entrelacement i = 0 a 3. A chaque cycle 
d'horloge, quatre requetes peuvent etre ainsi acceptees. 
10 Un multiplexer MUX1 , a droite de la figure, recoit les requetes externes des 
quatre files d'attente Fi et apres validation par les extensions memoire 
DDEAMi, les requetes sont emises, en sortie de I'agent de connexion NCS 
correspondant egalement a la sortie du multiplexeur MUX1, une par une sur le 
bus de la brique de base destinataire. 
15 Des blocs UAMi assurent la mise a jour des memoires associatives DDi. II y a 
un bloc par memoire associative. Ces blocs UAMi stockent les mises a jour qui 
doivent etre effectuees dans les memoires associatives DDi et elles sont 
executees quand il n'y a pas de trafic ou, simultanement, par toutes les briques 
de base. 

20 Des blocs memoire IRIPi stockent toutes les transactions destinees a une 
meme brique de base et qui doivent attendre un evenement de fin de 
transaction du type : 

- fin d'acces en memoire principale (lecture d'une transaction S, I) ; 

- mise a jour de la memoire principale (lecture d'une transaction partielle 
25 d'ecriture M, E). Dans le cas E, les donnees peuvent etre invalidees 

signifiant ainsi que le detenteur potentiel ne detient plus les donnees et que 
le "home", c'est-a-dire I'antememoire locale contenant le bloc de donnees, 
doit les lui fournir ; 

- fin d'emission d'une commande d'invalidation ; 

30 et les transactions qui ont abouti a un "hit E" ou "hit M" dans la brique de base, 
c'est-a-dire un acces qui a abouti dans I'etat E, ou un acces qui a abouti dans 
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I'etat M, et qui doivent attendre un evenement determine pour les terminer : fin 
de lecture et invalidation sur le bus systeme de la brique de base. 
Un bloc logique IA regoit les reponses concernant les requetes internes, 
delivrees par les blocs d'arbitrage ARBi, et indique pour chacune d'elles si 
5 elles ont abouti "hit" ou echoue "miss" (differer : attendre son tour ou reessayer 
pour cause de conflit). 

Un bloc ESA regoit les reponses aux consultations des memoires associatives 
DDi et diffuse ces resultats vers les autres briques de base. 
Un bloc SAH regoit et analyse les reponses a des consultations de types 
10 suivants : 

- consultation de type lecture (Read) : 

- valide ou efface une demande de lecture anticipee et attend une mise a 
jour du bloc (mode Ml) ; 

- prepare une reponse a Temetteur de requete et au processeur detenteur 
15 du bloc demande s'il est different (mode SI) ; 

- consultation de type ecriture partielle (PartialWrite) : 

- prepare la mise a jour du bloc du processeur detenteur : ecriture dans le 
bloc (mode SI). 

Un bloc HVB regoit des informations sur I'etat de remplissage de certains blocs 
20 memoire tels que les blocs UAMi, DDEAMi et informe les autres briques de 
base en cas du prochain debordement d'un de ces blocs pour qu'elles cessent 
d'emettre des requetes a destination de ces blocs. 

Une requete en ecriture partielle (PartialWrite) est vue par une brique de base 

distante comme une requete de lecture et invalidation. 
25 Un bloc generateur d'ecriture WG recueille les requetes emises sur le bus, en 

sortie de I'agent de connexion, correspondant egalement a la sortie du 

multiplexer MUX1 , et met a jour la brique de base locale en fusionnant les 

donnees qui ont ete ecrites partiellement et les donnees qui ont ete lues. 

Des blocs ORlPi stockent toutes les operations demandees par une brique de 
30 base determinee (requete en lecture en attente de donnees, requete 

d'invalidation en attente d'acquittement, ...). Ces blocs examinent les requetes 
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destinees a chaque noeud Nj et emanant d'une brique de base, non 
representee et qui serait a droite sur la figure, pour detecter une collision entre 
les requetes locales sortantes (outbond) en cours de traitement et les requetes 
distantes entrantes (inbond). 

5 Les sorties respectives aux blocs ORlPi et IRIPi sont multiplexees par des 
multiplexeurs MUXi dont les sorties sont respectivement couplees aux entrees 
des blocs UAMi. Les mises a jour des memoires DDi sont effectuees soit sur 
une transaction emanant des requetes externes via les blocs IRIPi et qui 
rentrent done sur I'agent de connexion NCS (en haut, a gauche de la figure), 

10 par exemple quand un processeur d'un noeud Nj determine veut lire un bloc 
determine, soit sur une transaction emanant des requetes internes via le bloc 
ORlPi et qui sortent de I'agent de connexion NCS (en bas a gauche de la 
figure), par exemple quand un bloc est "expulse" du cache d'une antememoire 
d'un processeur determine. 

15 Un bloc CM recueille I'identifiant systeme de la brique de base ou se trouve 
Tespace memoire recherche (Kantememoire du processeur hebergeant le bloc 
objet de la requete est la !). 

Un bloc SAH regoit sur une premiere serie d'entrees les reponses aux 
consultations des autres briques de base. II effectue la synthese de ces 
20 reponses, ce qui permet de valider ou d'invalider les lectures externes 
anticipees et aussi de savoir si une requete sera honoree en interne ou en 
externe. 

En fait, les entrees du bloc SAH local correspondent aux sorties des blocs ESA 
des autres briques de base. 

25 Un multiplexeur MUX3, en bas a gauche de la figure, re$oit les requetes 
internes et les operations d'ecriture bloc liees a des ecritures partielles 
delivrees par le bloc WG. II permet de serialiser les requetes qui sont ensuite 
diffusees vers les quatre autres briques de base, respectivement sur les quatre 
liens reliant la brique de base emettrice aux autres briques, via respectivement 

30 quatre registres de sortie REGO a REG3. 
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Un cinquieme registre REGin, a droite de la figure, est le registre d'entree de 
I'agent NCS. II regoit les requetes internes arrivant sur la brique de base. II est 
commande par rinformation delivree par le bloc logique IA. 
Un meme agent de connexion NCS dont une description fonctionnelle vient 
5 d'etre donnee ci-dessus peut etre utilise dans trois applications differentes : 

- pour la connexion d'un module quadri-processeur QPi au module Ml 
(figure 1 ) ; 

- pour la connexion d'un nceud Nj au systeme SI (figures 3, 4 et 6) ; et 

- pour la connexion de deux noeuds Nj (figure 8). 

10 Ces trois applications sont mises en ceuvre par un meme composant (chipset). 
Le traitement et le trajet des donnees par I'agent de connexion NCS ne sont 
pas representes. 

lis se limitent au routage des donnees soit de I'interface XI vers le module Ml 
ou le systeme SI, soit dans le sens inverse, au multiplexage des donnees 
15 provenant du module Ml ou du systeme SI. 

Le traitement des donnees est commande par I'espace d'adressage de I'agent 
de connexion NCS. Get espace supervise tous les flux entrant et sortant des 
donnees et effectue si necessaire, la traduction entre etiquettes de donnees 
externes ou internes. 

20 Uinterface XI est une interface demultiplexee et comporte done une partie 
commande/adresse et une partie donnees. 

Dans le but d'eviter qu'une reponse de lecture double une commande 
d'invalidation, la reponse de lecture doit attendre que toutes les commandes, 
serialisees avant la requete en lecture, aient ete emises sur le bus systeme du 
25 module quadri-processeur. 

La figure 8 illustre une variante de realisation d'une architecture selon 
Tinvention. 

Cette variante correspond a une configuration intermediate limitee a 
I' interconnexion entre deux noeuds Nj de cinq modules quadri-processeurs QPi 
30 chacun. 
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Dans cette configuration, sur un des module QPi de chaque noeud Nj on ne 
conserve uniquement que I'agent de connexion NCS' et on connecte les deux 
nceuds Nj entre eux via leurs agents de connexion NCS' respectifs. 
On obtient ainsi une machine 32 processeurs avec un second niveau 
5 d'interconnexion se reduisant a un lien. 

Ainsi, une interconnexion sans reseau systeme SI est possible en utilisant 
seulement deux agents de connexion NCS', couples tete-beche, avec pour 
seule interface externe une interface de type XI'. 

La latence du systeme est amelioree et la bande passante XI* permet de 
10 supporter une equirepartition des donnees entre les deux nceuds Nj. On peut 
ainsi etendre le nombre de processeurs de 20 a 32 sur un meme support de 
systeme Sexploitation d'une machine NUMA ou quasi UMA. 
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REN/EN DICATIONS 

1 . Architecture d' interconnexion modulaire pour machine multiprocesseur 
extensible, basee sur une hierarchie de bus virtuelle, comportant un nombre 
determine de modules multiprocesseurs (QPi) organises en nceuds (Nj) et 
repartis sur au moins deux niveaux d' interconnexion : un premier niveau (Ml) 
correspondent a I'interconnexion des modules multiprocesseurs (QPi) a 
I'interieur d'un noeud (Nj) et un deuxieme niveau (SI) correspondant a 
I'interconnexion des naeuds (Nj) entre eux ; le premier niveau d' interconnexion 
(Ml) comportant des agents de connexion (NCSi) connectant les modules 
multiprocesseurs (QPi) entre eux et gerant les transactions entre les modules 
multiprocesseurs (QPi), le deuxieme niveau d' interconnexion (SI) comportant 
des nceuds de connexion externes (NCE) connectant les noeuds (Nj) entre eux 
et gerant les transactions entre les noeuds (Nj), caracterisee en ce que les 
agents de connexion (NCSi) et les noeuds de connexion externes (NCEj) ont 
respectivement la meme structure de base, la meme interface externe (XI) et 
mettent en oeuvre le meme protocole de gestion de coherence des 
antememoires des processeurs. 

2. Architecture selon la revendication 1 , caracterisee en ce que chaque noeud 
de connexion externe (NCEj) comporte deux agents de connexion identiques 
(NCSi) couples tete-beche ; I'un des deux agents (NCS'j) recevant et filtrant les 
transactions emises par le noeud (Nj) auquel il est couple, et I'autre (NCS"j) 
recevant et filtrant les transactions emises par les autres noeuds (Nj) auxquels 
il est couple. 

3. Architecture selon la revendication 1 , caracterisee en ce que chaque agent 
de connexion (NCSi) comporte une memoire associative (DDi) de taille fixe 
determinee en fonction du nombre de processeurs du module multiprocesseur 
(QPi) auquel est couple I'agent de connexion (NCSi) ; I'etat des memoires 
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(DDi) etant indicatif de la presence des derniers blocs de donnees modifies 
dans les antememoires du module multiprocesseur (QPi). 

4. Architecture selon la revendication 2, caracterisee en ce que les agents de 
5 connexions (NCS'j et NCS"j) component respectivement une memoire 

associative (DD'j et DD"j) de taille fixe determinee en fonction du nombre de 
processeurs des modules multiprocesseurs (HBj) auxquels ils sont couples ; 
I'etat des memoires associatives (DD'j et DD"j) etant indicatif de la presence 
des derniers blocs de donnees modifies exportes, et reciproquement importes. 

10 

5. Architecture selon la revendication 2, caracterisee en ce que les premier et 
deuxieme agents de connexion tete-beche (NCS'j et NCS"j) n'acceptent des 
transactions que pour les blocs qui sont modifies dans leurs memoires 
associatives respectives (DD'j et DD"j) ; les blocs de donnees modifies dans le 

15 premier agent de connexion (NCS'j) sont exportes vers le ou les modules 
multiprocesseurs demandeur et, reciproquement, les blocs de donnees 
modifies dans le deuxieme agent de connexion (NCS") sont importes du ou des 
modules detenteur des blocs. 

20 6. Architecture selon I'une quelconque des revendications 1 a 5, caracterisee 
en ce que la latence du deuxieme niveau ^interconnexion (SI) est le double de 
la latence du premier niveau ^interconnexion (Ml). 

7. Precede de suivi des blocs de donnees a Tinterieur d'une architecture 
25 ^interconnexion selon Tune quelconque des revendications 1 a 6, caracterise 
en ce qu'il consiste, dans le premier niveau, a ne dupliquer dans les memoires 
associatives (DDi) que les blocs de donnees modifies dans les antememoires 
des modules multiprocesseurs (QPi) et a ne suivre que ces blocs modifies a 
Tinterieur du nceud (Nj). 
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8. Procede de suivi des blocs de donnees a I'interieur d'une architecture 
d' interconnexion selon Tune quelconque des revendications 1 a 6, caracterise 
en ce qu'il consiste, dans le deuxieme niveau (SI), a ne dupliquer dans les 
memoires associatives (DD'j et DD"j) des agents de connexion (NCS' et NCS"j) 
de chaque nceud de connexion externe (NCEj) que les bloc modifies et 
exportes, reciproquement importes, et a ne suivre que ces blocs modifies 
exportes, reciproquement importes, entre chaque nceud (Nj) de la machine. 

9. Procede d'extension de la capacite d'une machine comportant un premier 
nombre determine de processeurs de premier niveau (Ml) organise en un 
premier nombre determine de modules multiprocesseurs (QPi) et aptes a 
s'inserer dans une architecture d' interconnexion selon Tune quelconque des 
revendications 1a 6, caracterise en ce qu'il consiste, a retirer un des modules 
multiprocesseurs (QPi) de premier niveau de son agent de connexion (NCSi), 
et a connecter via cet agent de connexion laisse libre, un deuxieme nombre 
determine de processeurs organises en un deuxieme nombre determine de 
modules multiprocesseurs egalement aptes a s'inserer dans une architecture 
d'interconnexion selon I'une quelconque des revendications 1 a 6. 

10. Procede selon la revendication 9, caracterise en ce que le deuxieme 
nombre determine de processeurs etant organise en un deuxieme nombre 
determine de modules multiprocesseurs de deuxieme niveau (SI), il consiste a 
le connecter a I'agent de connexion (NCSi) du premier nombre determine de 
processeurs de premier niveau (Ml) par I'intermediaire d'un des agents de 
connexion (NCS"j) de deuxieme niveau. 

11. Procede selon la revendication 10, caracterise en ce que le deuxieme 
nombre determine de processeurs etant egalement de premier niveau (Ml), il 
consiste a connecter les agents de connexion (NCS') respectifs aux premier et 
deuxieme nombre determine de processeurs ; le deuxieme niveau (SI) se 
resumant en une liaison unique. 
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12. Machine multiprocesseur multinodale extensible, caracterisee en ce quelle 
comporte une architecture d' interconnexion selon Tune quelconque des 
revendications 1 a 6. 
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ABREGE DESCRIPTIF 

La presente invention conceme une architecture d' interconnexion modulaire 
pour machine multiprocesseur extensible. Elle comporte un premier niveau 

5 d' interconnexion (Ml) comportant des agents de connexion (NCSi) connectant 
les modules multiprocesseurs et gerant les transactions entre les modules 
multiprocesseurs, et un deuxieme niveau ^interconnexion (SI) comportant des 
nceuds de connexion externes (NCEj) connectant les noeuds (Nj) entre eux et 
gerant les transactions entre les nceuds (Nj). Chaque nceud de connexion 

10 externe (NCEj) comporte deux agents de connexion identiques a I'agent de 
connexion (NCSi) couples tete-beche ; Tun des deux agents (NCS'j) recevant et 
filtrant les transactions emises par le nceud (Nj) auquel il est couple, et I'autre 
agent (NCS"j) recevant et filtrant les transactions emises par les autres nceuds 
. (Nj) auxquels il est couple. 

15 Les applications vont notamment a la construction de tout une gamme de 
machines : UMA, QUASI-UMA, NUMA, cluster ... 
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